Instituto de Ciências Matemática e de Computação (ICMC-USP)

Disciplina: SME0221 - Introdução a Inferência Estatística

$ \ $

$ \quad\quad\quad $ Trabalho: Estudo sobre Infecções por Sífilis no Brasil

$ \ $ $ \ $

Profa. Cibele Russo

$ \ $

Grupo:

Estudo sobre infecções de sífilis no Brasil

A sífilis é uma doença classificada em estágios. A primária ocorre assim que há a infecção pela bactéria Treponema pallidum, causadora da doença; com feridas indolores no local de infecção (região genital), que desaparecem em cerca de até 10 dias, mesmo sem tratamento (a bactéria torna-se inativa no organismo). A secundária acontece cerca de duas a oito semanas após as primeiras feridas se formarem. Aproximadamente 33% daqueles que não trataram a sífilis primária desenvolvem o segundo estágio; podem apresentar vermelhidão pelo corpo, coceira, aparecimento de íngua nas axilas e pescoço, além de outros sintomas que também geralmente desaparecem sem tratamento e, mais uma vez, a bactéria fica inativa no organismo. E a terciária, que é a mais difícil de ser detectada, pois têm sintomas em grandes vasos (como a aorta), cérebro, olhos, coração, podendo causar dor de cabeça, epilepsia, e é um diagnóstico um pouco mais complicado.

Este nosso estudo foi realizado com base no gênero e regiões do Brasil dentre os anos de 2011 a 2021. Sendo assim, foram efetuados dois tipos de teste nesta análise:

  1. Comparação de taxas médias de infecções entre as regiões, com as seguintes considerações para independência das regiões:
    • influência de indivíduos de uma região na infecção de indivíduos de outra região será desconsiderada;
    • notificação de um indivíduo que está provisoriamente em uma região, porém vive em outra região não é mensurada e será também ignorada.
  1. Comparação de médias de casos por gênero em cada região e para o Brasil
    • as populações de cada gênero foram consideradas iguais, além de não se considerar variação nas populações ao longo dos anos.
    • as infecções entre gêneros estão relacionadas, visto que a forma de transmissão mais comum da sífilis é via relação sexual. Mas as populações de cada gênero podem ser consideradas independentes, porque mesmo que um indivíduo de um gênero possa infectar vários indivíduos de outro gênero, ainda assim, a análise é feita unicamente sobre os números de casos de cada gênero, não importando a forma de infecção e quem infectou quem. Outro ponto é que a distinção biológica entre os gênero tende a ser marcante e é mais um fator que nos leva a assumir independência entre essas populações.

OBS.: Não foi considerado o efeito do tempo nas comparações de médias e de distribuições, ou seja, os anos serão como "rótulos das amostras".

As amostras de cada ano dentro de uma região foram consideradas independentes tendo as seguintes ponderações:

Tratamento dos dados

As bibliotecas utilizadas nas análises e o tratamento dos dados sobre os casos de infecções por sífilis no Brasil estão nos blocos de código abaixo.

Os dados forma obtidos na página http://indicadoressifilis.aids.gov.br/.

Após o tratameno e organização dos dados, foram gerados os seguintes dataframes:

Gráficos interativos

Alguns gráficos de boxplots e de dispersão foram gerados para avaliação prévia do comportamento dos dados.

Boxplots

A região Sul mostrou maior variabilidade nas taxas de infecção ao longo dos anos, visto que apresentou o boxplot plot com maior amplitude. Já a região Nordeste apresentou os menores valor máximo, amplitude e mediana, indicando ser a região com menor variabilidade nas taxas e com os melhores indicadores relacionados ao controle da sífilis no país. Pela distribuição dos boxplots, é esperado que haja uma rejeição no teste de variâncias iguais para as cinco regiões e por isso foi decidido de antemão testar as taxas médias para as regiões tomadas duas a duas.

Para todas as regiões, os casos de infecções em homens apresentaram maior variabilidade e maiores valores máximos. Apenas a região Norte apresentou mediana maior entre as mulheres comparadas com os homens. Porém, devido à dispersão dos dados, mesmo para região Norte, existe a tendência de média maior de casos para os homens.


Como pressupomos a igualdade nas populações de homens e de mulheres, uma comapração relativa entre os gêneros continuaria indicando mais infecções entre homens. Uma possível explicação para o fato de os homens possuírem mais casos de infecção em relação às mulheres pode ser que a transmissão de sífilis entre indíviduos de mesmo gênero é mais comum para homens do que para mulheres.

Dispersão + Linhas

O gráfico acima indica que as taxas de infecção por região ao longo dos anos têm tendência a uma distribuição normal com assimetria à esquerda (ou negativa), mesmo com os anos ordenados, visto que não será levado em conta o efeito do tempo nas regiões e cada ano pode ser visto como um "rótulo" para as amostras de taxas de cada região.

Assim como foi observado nas taxas ao longo dos anos para cada região, os números de casos para cada gênero ao longo dos anos para cada região também mostram tendência à distribuição normal com assimetria à esquerda. Portanto, espera-se que a normalidade para todas as distribuições consideradas nesta análise não possam ser rejeitadas pelo teste de Shapiro-Wilk.

Tabelas descritivas

Abaixo seguem algumas tabelas descritivas sobre os números de casos por gênero para cada região.

Testes de hipótese com nível de significância $\alpha = 5\%$

Para os testes de hipótese, foi utilizada a biblioteca SciPy, que possui nível de significância padrão igual a 5%, valor que foi mantido nos cálculos.

Testes de normalidade (Shapiro-Wilk)

Conforme esperávamos a partir da avaliação dos gráficos acima, os testes de Shaprio-Wilk não rejeitaram a normalidade para nenhuma distribuição desta análise. Logo, todas as distribuições utilizadas foram consideradas como normais.

Testes de homocedasticidade (Levene) e de comparação entre médias

Média das taxas de infecção por região

Inicialmente, será feito o teste de Levene para verificar a hipótese de igual para as variâncias das taxas médias de infecções considerando as 5 regiões.

Como era esperado pela análise dos boxplots, foi rejeitada a igualdade das variâncias entre as distribuições de taxas ao longo dos anos para cada região. Sendo assim, o teste ANOVA não seria indicado para esses dados, mas para fins didáticos o aplicamos em nossa base de dados. Como resultado é esperado que seja rejeitada fortemente a igualdade, entre as regiões, nas médias das taxas de infecções.

Como previsto, o p-valor da ANOVA deu muito abaixo de 0.05 e a igualdade entre as taxas médias das regiões foi rejeitada. Lembrando que este teste foi feito apenas para ilustração, visto que a condição de homocedasticidade foi rejeitada, condição necessária para realizar o teste ANOVA.


Adicionalmente, como a homocedasticidade das taxas médias entre as regiões foi rejeitada, foi feito um teste de Kruskal-Wallis para determinar se as distribuições das taxas médias podem ser consideradas iguais.

Novamente, o p-valor ficou abaixo de 0.05 e a igualdade de distribuição das taxas médias entre as regiões foi rejeitada. Portanto, as distribuições das taxas de infecção por região foram tomadas duas a duas para a realização de Testes $t$ para a igualdade das taxas médias.


O Teste $t$ no SciPy permite a consideração de variâncias iguais através do parâmetro equal_var. Assim, criou-se a função lâmbda avalia_equal_var para determinar o valor desse parâmetro a partir do p-valor obtido com o teste de Levene para a homecedasticidade entre cada par possível de regiões.


Ao todo, existem 10 pares distintos entre as 5 regiões, ou seja, foram realizados 10 testes em sequência para a comparação das taxas médias entre as regiões. Assim, para avaliar a hipótese nula, será adotada a correção de Bonferroni para a significância dos testes, que consiste em dividir o valor de $\alpha$ de cada teste pelo número total $n$ de teste. Neste caso, a nova significância passou a ser igual a 0.005 e foi com este valor que avaliamos a rejeição da igualdade das taxas médias, comparando-o com os p-valores obtidos em cada teste.

Assim, com a correção de Bonferroni, apenas a igualdade das taxas médias de infecções entre as regiões Nordeste e Sudeste foi rejeitada.

Desconsiderando a correção de Bonferroni, também seriam rejeitadas as igualdades das taxas médias entre as regiões Norte e Sudeste, Norte e Sul, Nordeste e Sudeste (novamente), além de Nordeste e Sul. Esses são resultados esperados porque, conforme visto nos boxplots, as regiões Norte e Nordeste possuem os menores valores máximos de taxa de infecção e as menores variabilidades nas taxas, enquanto as regiões Sul e Sudeste possuem um comportamento oposto.

Algumas possibilidades de explicação para os resultados obtidos até aqui:

Média de casos por gênero para cada região

Por fim, para as médias de casos por gênero ao longo dos anos para cada região (e para o Brasil), foram feitos os testes de homocedasticidade e, posteriormente, os Testes $t$ para comparação das médias.

A igualdade das médias de casos por gênero ao longo dos anos foi rejeitada apenas na região Sudeste, o que era esperado, já que a mediana e o valor máximo de casos entre os homens estavam muito acima dos valores exibidos para as mulheres no boxplot apresentado acima. Nas demais regiões, não foi possível rejeitar a igualdade entre as médias de casos por gênero através do Teste $t$.


Neste caso, podemos trazer três fatores como explicação do aumento da incidência da sífilis no Brasil nesses ultimos anos. Um deles é a diminuição do uso do preservativo, que passa a ser uma tendência mundial. Um segundo motivo ocorreu pela falta em alguns anos do antibiótico mais eficaz contra a bactéria da sífilis, isto fez com que muitas pessoas infectadas pela bactéria não tivessem acesso precoce ao tratamento, e aumentassem a cadeia de transmissão. Por fim, houve diminuição de campanhas de prevenção às Infecções sexualmente transmissíveis. Portanto, a melhor forma de minimizar esses casos ainda seria o uso de campanhas governamentais de prevenção às doenças sexualmente transmissíveis, promovendo um maior impacto sobre a consciência da população.